本文使用签名的累积分布变换(SCDT)提出了一种新的端到端信号分类方法。我们采用基于运输的生成模型来定义分类问题。然后,我们利用SCDT的数学属性来使问题更容易在变换域中,并使用SCDT域中的最接近局部子空间(NLS)搜索算法求解未知样本的类。实验表明,所提出的方法提供了高精度的分类结果,同时又有数据效率,对分布样本的强大稳定性以及相对于深度学习端到端分类方法的计算复杂性而具有竞争力。在Python语言中的实现将其作为软件包Pytranskit(https://github.com/rohdelab/pytranskit)的一部分集成。
translated by 谷歌翻译
策略培训是一种多学科的康复方法,它教导技能减少中风后认知障碍者的残疾。与传统的康复方法相比,在随机,对照临床试验中已显示策略培训是促进独立性的更可行和有效的干预措施。标准化的保真度评估用于通过检查康复视频记录中的指导和定向口头提示来衡量治疗原则的依从性。尽管用于检测指导和定向的口头提示的忠诚度评估对于单一站点研究是有效的,但在大型多站点务实的务实试验中,它可能会变成劳动力密集,耗时且昂贵。为了应对广泛的战略培训实施的这一挑战,我们利用自然语言处理(NLP)技术来自动化策略培训保真度评估,即自动从康复会议的视频记录中自动识别有指导和指导的口头提示。我们开发了一种基于规则的NLP算法,一个长期术语存储器(LSTM)模型以及该任务的变压器(BERT)模型的双向编码器表示。 BERT模型以0.8075的F1得分实现了最佳性能。这项研究的发现在心理学和康复干预研究和实践方面具有广泛的希望。
translated by 谷歌翻译
恶意软件(恶意软件)分类为持续学习(CL)制度提供了独特的挑战,这是由于每天收到的新样本的数量以及恶意软件的发展以利用新漏洞。在典型的一天中,防病毒供应商将获得数十万个独特的软件,包括恶意和良性,并且在恶意软件分类器的一生中,有超过十亿个样品很容易积累。鉴于问题的规模,使用持续学习技术的顺序培训可以在减少培训和存储开销方面提供可观的好处。但是,迄今为止,还没有对CL应用于恶意软件分类任务的探索。在本文中,我们研究了11种应用于三个恶意软件任务的CL技术,涵盖了常见的增量学习方案,包括任务,类和域增量学习(IL)。具体而言,使用两个现实的大规模恶意软件数据集,我们评估了CL方法在二进制恶意软件分类(domain-il)和多类恶意软件家庭分类(Task-IL和类IL)任务上的性能。令我们惊讶的是,在几乎所有情况下,持续的学习方法显着不足以使训练数据的幼稚关节重播 - 在某些情况下,将精度降低了70个百分点以上。与关节重播相比,有选择性重播20%的存储数据的一种简单方法可以实现更好的性能,占训练时间的50%。最后,我们讨论了CL技术表现出乎意料差的潜在原因,希望它激发进一步研究在恶意软件分类域中更有效的技术。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
制定了具有机器学习模拟(骆驼)项目的宇宙学和天体物理学,通过数千名宇宙的流体动力模拟和机器学习将宇宙学与天体物理学结合起来。骆驼包含4,233个宇宙学仿真,2,049个n-body和2,184个最先进的流体动力模拟,在参数空间中采样巨大的体积。在本文中,我们介绍了骆驼公共数据发布,描述了骆驼模拟的特性和由它们产生的各种数据产品,包括光环,次麦,银河系和空隙目录,功率谱,Bispectra,Lyman - $ \ Alpha $光谱,概率分布函数,光环径向轮廓和X射线光子列表。我们还释放了超过骆驼 - 山姆的数十亿个星系的目录:与Santa Cruz半分析模型相结合的大量N身体模拟。我们释放包含350多个Terabytes的所有数据,并包含143,922个快照,数百万光环,星系和摘要统计数据。我们提供有关如何访问,下载,读取和处理数据AT \ URL {https://camels.readthedocs.io}的进一步技术详细信息。
translated by 谷歌翻译
本文研究了具有完全状态观测的自主交换线性系统系统识别问题。我们提出了用于识别切换线性系统的开关最小二乘法,表明该方法是强烈一致的,并导出数据相关和数据无关的收敛速率。特别是,我们的数据依赖率的收敛速度表明,几乎肯定地,系统识别错误是$ \ mathcal {o} \ big(\ sqrt {\ log(t)/ t}大)$ why $ t $时间地平线。这些结果表明,我们对切换线性系统的方法具有相同的收敛速度,不是非切换线性系统的最小二乘法。我们将我们的结果与文学中的结果进行比较。我们提供了数值例子以说明所提出的系统识别方法的性能。
translated by 谷歌翻译
心血管疾病是世界各地最常见的死亡原因。为了检测和治疗心脏相关的疾病,需要连续血压(BP)监测以及许多其他参数。为此目的开发了几种侵入性和非侵入性方法。用于持续监测BP的医院中使用的大多数现有方法是侵入性的。相反,基于袖带的BP监测方法,可以预测收缩压(SBP)和舒张压(DBP),不能用于连续监测。几项研究试图从非侵​​入性可收集信号(例如光学肌谱(PPG)和心电图(ECG))预测BP,其可用于连续监测。在这项研究中,我们探讨了自动化器在PPG和ECG信号中预测BP的适用性。在12,000岁的MIMIC-II数据集中进行了调查,发现了一个非常浅的一维AutoEncoder可以提取相关功能,以预测与最先进的SBP和DBP在非常大的数据集上的性能。从模拟-II数据集的一部分的独立测试分别为SBP和DBP提供了2.333和0.713的MAE。在40个主题的外部数据集上,模型在MIMIC-II数据集上培训,分别为SBP和DBP提供2.728和1.166的MAE。对于这种情况来说,结果达到了英国高血压协会(BHS)A级并超越了目前文学的研究。
translated by 谷歌翻译
稀疏变分高斯工艺(SVGP)方法是由于其计算效益的非共轭高斯工艺推论的常见选择。在本文中,我们通过使用双重参数化来提高其计算效率,其中每个数据示例被分配双参数,类似于期望传播中使用的站点参数。我们使用自然梯度下降的双重参数化速度推断,并提供了较小的证据,用于近似参数学习。该方法具有与当前SVGP方法相同的内存成本,但它更快,更准确。
translated by 谷歌翻译
当代患者监控系统已经将中央监控流入电子健康记录界面。他们可以通过采用机器学习方法来处理患者数据的纯粹体积。然而,这些系统不适合在许多医院实施,主要是发展中国家,有限的人类,金融和技术资源。通过对密集护理设施进行彻底的研究,我们设计了一种新型中央患者监控系统,并在本文中描述了我们系统的工作原型。所提出的原型包括廉价的外围设备和简单的用户界面。我们的中央患者监测系统实现基于内核的基于线异常检测(KAOD)算法,用于紧急事件信令。通过评估连续患者数据,我们表明系统能够可靠地实时检测关键事件,并且具有低误报率。
translated by 谷歌翻译
我们研究了在反倾向得分加权的框架内使用连续处理的观察性因果推断的问题。为了获得稳定的权重,我们设计了一种基于熵平衡的新算法,该算法可以学习权重,以直接使用端到端优化最大化因果推理精度。在优化过程中,这些权重自动调整为使用的特定数据集和正在使用的因果推理算法。我们提供了证明我们方法一致性的理论分析。使用合成和现实世界数据,我们表明我们的算法估计因果效应比基线熵平衡更准确。
translated by 谷歌翻译